「李宏毅机器学习」学习笔记-Tips for Training DNN

Nov 9, 2018 | 机器学习 | 阅读

本章课程PDF，视频（油管或B站）。

Do not always blame Overfitting

我们不能只看到在Testing Data上56层Neural Network效果没有20层Neural Network效果好，就说这是Overfitting，因为有可能在Training Data上56层Neural Network效果也没有20层Neural Network效果好，这时候就是56层Neural Network没有训练好。

Different approaches for different problems.e.g. dropout for good results on testing data.

Vanishing Gradient Problem

每通过一次sigmoid function，变化就会衰减一次，网络越深，衰减次数就越多。

ReLU

Maxout

ReLU is a special cases of Maxout. More than ReLU.

Training

RMSProp

Hard to find optimal network parameters

其实，没有那么多local minima，如果是local minima，就要求每一个维都要是山谷的谷底，假设山谷谷底出现的几率是$P$，因为Network有非常多的参数，假设有一千个参数，每一个参数都要是山谷的谷底，出现的概率就是$P^{1000}$，Network越大，参数越多，出现的几率就越低。所以，local minima在一个很大的Neural Network里面不常见，所以卡主的地方八成是global minima或接近global minima的地方。

Momentum

Adam

Early Stopping

Regularization

L1与L2同样是把参数变小，但做的事情是略有不同的。使用L1的时候，每次都减掉固定的值；使用L2的时候，每次都乘上一个小于1固定的值。所以，如果$w$是一个很正的值（比如一百万），对L2来说，乘上0.99等于$w$减掉一个很大的值，但对L1来说，不管$w$是一百万还是0.1，$w$减掉的值都是固定的。用L1做training得到的结果会比较sparse，train出来的参数里面会有很多接近0的值，也有很大的值。用L2的话，train出来的值是平均的，都比较小。